%	\chapter{随机变量}
	\section{随机变量的定义}
	\begin{definition}[{示性函数}]
		定义示性函数$I_A:\Omega\to\mathbb{R}$如下
		\begin{equation}
		I_A(\omega)=
		\begin{cases}
		0\quad \omega\in A\\
		1\quad \omega\notin A
		\end{cases}
		\end{equation}
	\end{definition}
	\begin{definition}[{随机变量}]
		考虑函数$X:\Omega\to\mathbb{R}$，如果该函数满足
		\begin{equation}\forall x\in\mathbb{R},\ \{\omega|X(\omega)\geq x\}\in\mathfrak{F}\end{equation}
		那么就称$X(\omega)$是可测空间$(\Omega,\mathfrak{F})$上的随机变量。通常省略样本点记为$X$。
	\end{definition}
	作为一个例子，示性函数$I_A$就是一个随机变量。因为，当$x>1$时，满足$I_A(\omega)\geq x$的那些$\omega$所构成的集合就是$\varnothing\in\mathfrak{F}$；当$0< x\leq 1$时，满足$I_A(\omega)\geq x$的那些$\omega$所构成的集合就是$A\in\mathfrak{F}$；当$x\leq 0$时，满足$I_A(\omega)\leq x$的那些$\omega$所构成的集合就是$\Omega\in\mathfrak{F}$。
	
	对于一个随机变量$X$，根据随机变量的定义以及$\mathfrak{F}$的定义，它总是满足$\{\omega|X(\omega)\in[a,b)\}\in\mathfrak{F}$。在这些左闭右开区间上取$\sigma-$代数，就可以得到Borel集。
	
	为了方便，$\forall a,b\in \mathbb{R}^n$，记
	\begin{equation}a<b:=[a_i<b_i,\forall 1\leq i\leq n]\end{equation}
	以及
	\begin{equation}[a,b):=\{(x_1,\cdots,x_n)|a_i\leq x_i<b_i,i\leq i\leq n\}\end{equation}
	
	\begin{definition}[{Borel $\sigma-$代数}]
		我们记
		\begin{equation}\mathfrak{C}=\{[a,b)|a,b\in\mathbb{R}^n,a<b\}
		\end{equation}
		称$\sigma(\mathfrak{C})$是$\mathbb{R}^n$上的Borel $\sigma-$代数，通常记为$\mathfrak{B}(\mathbb{R}^n)$。
	\end{definition}
	注意，$\mathfrak{C}$是个集族，但不是$\sigma-$代数。因为它不包括全集和空集。将集族$\mathfrak{C}$里的集合进行求逆及可列并的运算之后所得到的集合才是$\sigma-$代数。根据$\sigma-$代数的性质，可以推出：
	\begin{theorem}{}
		对于$\forall x,y\in\mathbb{R}^n$，都有\begin{equation}\{x\}=\bigcap_{n=1}^{+\infty}\left[x,x+\frac{1}{n}\right)\in\mathfrak{B}(\mathbb{R}^n)\end{equation}
		且$[x,y],(x,y],[x,y)\in\mathfrak{B}(\mathbb{R}^n)$。
	\end{theorem}
	\begin{corollary}{}
		Borel集$\mathfrak{B}(\mathbb{R}^n)$就是由$\mathbb{R}^n$的所有子集构成的集合类。
	\end{corollary}
	\begin{theorem}{}
		令$\mathfrak{C}_1=\{A|A\text{是}\mathbb{R}\text{中的开集}\}$，$\mathfrak{C}_2=\{A|A\text{是}\mathbb{R}\text{中的闭集}\}$，则$\sigma(\mathfrak{C}_1)=\sigma(\mathfrak{C}_2)=\mathfrak{B}(\mathbb{R}^n)$
	\end{theorem}
	\begin{corollary}{}
		对于任何区间$[a,b)$，其中开区间和闭区间可换，由其生成的最小$\sigma-$代数都是$\mathfrak{B}(\mathbb{R}^n)$。
	\end{corollary}
	由以上讨论可以看出，随机变量的取值范围一定是Borel集，而且也只能取Borel集。Borel集实际上起到作为事件与随机变量之间联系的桥梁作用。
	
	\begin{definition}[{Borel可测函数}]
		若函数$g$满足
		\begin{equation}\forall a\in \mathbb{R},\ \{x|g(x)\leq a\}\in\mathfrak{B}\end{equation}
		则称其为Borel可测函数。
	\end{definition}
	我们目前接触到的几乎所有集合都是Borel集，几乎所有函数也都是Borel可测函数。
	\begin{theorem}[{Borel可测函数与随机变量}]
		若$X$是随机变量，$g$为Borel可测函数，则$g(X)$是随机变量。
	\end{theorem}
	通过以上定理就可以用已知的随机变量构造出许多随机变量出来。
	
	\begin{theorem}
		$X$是样本空间$\Omega,\mathfrak{F}$上的随机变量等价于如下命题：$\forall B\in\mathfrak{B}(\mathbb{R})$，都有
		\begin{equation}
		X^{-1}(B)=\{\omega|X(\omega)\in B\}\in\mathfrak{F}
		\end{equation}
		这个命题可以作为随机变量的等价定义。
	\end{theorem}
	
	\begin{definition}[{独立随机变量}]
		设$X_1,X_2,\cdots,X_n$是随机变量，如果$\forall x_1,x_2\cdots,x_n$，都有
		\begin{equation}
		 P(X_1\geq x_1, X_2\geq  x_2,\cdots X_n\geq x_n)=P(X_1\geq x_1)P(X_2\geq x_2)\cdots P(X_n\geq x_n)
		\end{equation}
		就称这些随机变量相互独立。
	\end{definition}
	\begin{theorem}{}
		设$X_1,X_2,\cdots,X_n$是相互独立的随机变量，则对于任意的Borel集$A_1,A_2,\cdots,A_n$，事件$\{X_1\in A_1\},\{X_2\in A_2\},\cdots,\{X_n\in A_n\}$也相互独立。
	\end{theorem}
	
	最后定义随机变量的分布，它是随机变量与概率结合的起点。
	\begin{definition}[分布]
		设$X$是随机变量，则
		\begin{equation}
		P\circ X^{-1}(B)=P(\{\omega|X(\omega)\in B\})
		\end{equation}
		是样本空间$(\mathbb{R},\mathfrak{B}(\mathbb{R}))$上的概率测度，并称其为$X$在$P$下的分布。
	\end{definition}
	\section{离散型随机变量}
	\begin{definition}[{离散型随机变量及其分布列}]
		在可测空间$(\Omega,\mathfrak{F})$上定义的随机变量$X(\omega)$如果只有可列个取值，则称$X$是离散型随机变量。称
		\begin{equation}\{p_n\}_{n=1}=\{P(X=x_n)\}\end{equation}
		是这个离散型随机变量的分布列。
	\end{definition}
	常见的离散型随机变量的分布有：
	\begin{definition}[{两点分布}]
		设$X$值是一次随机事件中发生的事件数，该事件发生的概率为$p$。称$X$服从两点分布，记作$X\sim B(1,p)$。两点分布的分布列如下：
		\begin{equation}
		\begin{cases}
		P(X=1)=p\\
		P(X=0)=1-p
		\end{cases}
		\end{equation}
	\end{definition}
	
	\begin{definition}[{二项分布}]
		设$X$值是$n$次独立重复事件中发生的事件数。这个事件每次发生的概率都是$p$。则$X$服从二项分布，记作$X\sim B(n,p)$。二项分布的分布列如下：
		\begin{equation}
		P(X=k)=\begin{pmatrix}
		n\\k
		\end{pmatrix}p^k(1-p)^{n-k},\ (k=0,1,\cdots,n)
		\end{equation}
	\end{definition}
	
	\begin{theorem}{}
		如果$X_1\sim B(n_1,p),X_2\sim B(n_2,p)$，且$X_1,X_2$独立，那么$X_1+X_2\sim B(n_1+n_2,p)$。特别地，二项分布可以看作是$n$个两点分布的随机变量的和。
	\end{theorem}

	\begin{definition}[{泊松分布}]
		设$X$值是某个随机事件发生的次数。假设每次事件发生与否相互独立，且平均事件发生$\lambda$次，$X$服从泊松分布，记作$X\sim P(\lambda)$。分布列为
		\begin{equation}
		P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda},\quad k=0,1,2,\cdots
		\end{equation}
	\end{definition}
	泊松分布可以看作是二项分布中$n\to \infty$的极限情形。
	\begin{theorem}{}
		考虑$0<p_n<1,\lim\limits_{n\to\infty}np_n=\lambda>0$，则
		\begin{equation}\lim\limits_{n\to\infty}\begin{pmatrix}
		n\\k
		\end{pmatrix}p_n^k(1-p_n)^{n-k}=\frac{\lambda^k}{k!}e^{-\lambda}\end{equation}
	\end{theorem}
	\begin{proof}
		考虑
		\begin{equation}\begin{aligned}
		\begin{pmatrix}
		n\\k
		\end{pmatrix}p_n^k(1-p_n)^{n-k}&=\frac{(np_n)^k n(n-1\cdots (n-k+1))}{n^k k!}(1-p_n)^{n-k}\\
		&=\frac{(np_n)^k n(n-1\cdots (n-k+1))}{n^k k!}(1-p_n)^{(-np_n)\left(-\frac{1}{p_n}\right)\left(\frac{n-k}{n}\right)}
		\end{aligned}\end{equation}
		当$n\to\infty$时，有
		\begin{equation}\begin{aligned}
		\frac{(np_n)^k n(n-1\cdots (n-k+1))}{n^k k!}&\to\frac{\lambda^k}{k!}\\
		(1-p_n)^{(-np_n)\left(-\frac{1}{p_n}\right)\left(\frac{n-k}{n}\right)}&\to e^{-\lambda}
		\end{aligned}\end{equation}
	\qed
	\end{proof}
	\begin{definition}[{几何分布}]
		重复进行随机试验，直到事件发生时停下。$X$值是首次发生时共做的事件的次数。每次发生的概率均为$p$，则称$X$服从几何分布，记作$X\sim G(p)$。分布列为
		\begin{equation}
		P(X=k)=(1-p)^{k-1}p,\quad k=1,2,\cdots,\ 0<p<1
		\end{equation}
	\end{definition}

	\begin{definition}[{帕斯卡分布}]
		重复进行随机试验，直到发生$r$次为止才停止。$X$值是到停止为止时事件发生与未发生的次数之和，也就是所做随机试验的次数。每次事件发生的概率为$p$，称$X$服从帕斯卡分布，记作$X\sim Pas(r,p)$。它的分布列为
		\begin{equation}
		P(X=k)=\begin{pmatrix}
		k-1\\r-1
		\end{pmatrix}(1-p)^{k-r}p^r,\quad k=r,r+1,\cdots
		\end{equation}
	\end{definition}
	几何分布可以看作是帕斯卡分布在$r=1$时的特例。独立条件下，帕斯卡分布对于参数$r$具有可加性。
	
	\begin{definition}[{超几何分布}]
		在$N$个产品中具有$M$个次品。从中抽取$n$个，$X$是这$n$个样品中的次品数目。称$X$服从超几何分布$X\sim H(n,M,N)$。分布列为
		\begin{equation}
		P(X=k)=\frac{\begin{pmatrix}
			M\\k
			\end{pmatrix}\begin{pmatrix}
			N-M\\n-k
			\end{pmatrix}}{\begin{pmatrix}
			N\\n
			\end{pmatrix}},\quad k=0,1,\cdots,M
		\end{equation}
	\end{definition}

	\section{连续型随机变量}
	\begin{definition}[{概率分布函数}]
		设在可测空间$(\Omega,\mathfrak{F})$上定义了随机变量$X(\omega)$，则函数
		\begin{equation}F(x)=P(X\leq x)\end{equation}
		称为$X$的概率分布函数，也称为分布函数。
	\end{definition}
	如果$X$是离散型随机变量，那么分布函数就是一个单调递增的阶梯函数，阶跃点在所有$X$的取值处，而跳跃的幅度就是$X$取那个值的概率大小。
	
	概率分布函数具有如下性质：
	\begin{property}
		\begin{enumerate}
			\item $F(x)$右连续。
			\item $\lim\limits_{x\to -\infty}F(x)=0,\ \lim\limits_{x\to+\infty}F(x)=1$
		\end{enumerate}
	\end{property}
	\begin{proof}
		\begin{enumerate}
			\item \begin{equation}F(x+0)=\lim\limits_{n\to\infty}F(x+\frac{1}{n})=\lim\limits_{n\to\infty}P(X\leq x+\frac{1}{n})=P(X\leq x)=F(x)\end{equation}
			\item 同理可证。\qed
		\end{enumerate}
	\end{proof}
	显然，概率分布与分布函数是一一对应的关系。但是，分布函数并不能直观地展示随机变量取值落在哪里时的可能性较大、又在哪里的可能性较小。这是因为所有的$F(x)$都从左到右递增且从0增长到1，因此长得都挺像的。我们希望引入像分布列那样的方法，来克服这个困难。
	\begin{definition}[{概率密度函数}]
		如果随机变量$X$的概率分布函数$F(x)$几乎处处连续可微，则称$X$为连续型随机变量，导数$F'(x)$称为$X$的概率密度函数。
	\end{definition}
	上面的这个定义还可以推广为如下形式：
	\begin{definition}[{概率密度函数推广}]
		设$A\subset\mathbb{R}$是可数集，且
		\begin{equation}
		\forall x,y\in A,\ x\neq y,\ |x-y|>0
		\end{equation}
		若分布函数$F(x)$连续，且$\forall x\notin A$，$F(x)$连续可微。则定义
		\begin{equation}
		f(x)=\begin{cases}
		F'(x) &x\notin A\\
		0 &x\in A
		\end{cases}
		\end{equation}
		为概率密度函数。
	\end{definition}

	概率密度函数具有如下性质：
	\begin{property}
		设在可测空间$(\Omega,\mathfrak{F})$上定义了随机变量$X(\omega)$，$f(x)$是$X$服从的概率密度函数，那么
		\begin{enumerate}
			\item \begin{equation}\forall a<b, P(a<X\leq b)=\int_{a}^{b}f(x)dx\end{equation}
			\item \begin{equation}\int_{-\infty}^{+\infty}f(x)dx=1\end{equation}
			\item $\lim\limits_{\epsilon\to 0}\int_{a-\epsilon}^{a+\epsilon}f(x)dx=0$
		\end{enumerate}
	\end{property}
	
	连续性随机变量常见的分布有：
	\begin{definition}[{均匀分布}]
			均匀分布，$X\sim U(a,b)$
			\begin{equation}
			f(x)=\begin{cases}
			\frac{1}{b-a},\ &x\in(a,b)\\
			0,\ &else
			\end{cases}
			\end{equation}
	\end{definition}
	\begin{definition}[{指数分布}]	
			指数分布，$X\sim \varepsilon(\lambda),\ \lambda >0$
			\begin{equation}
			f(x)=\lambda e^{-\lambda x},\quad x>0
			\end{equation}
	\end{definition}
	指数分布应用于电子元件的寿命分布。如果元件在某个时刻$x$正常工作的情况下，失效率总是保持为某个常数$\lambda$，与$x$无关。这里的失效率指的是：
	\begin{equation}
	\lim\limits_{h\to 0}\frac{1}{h}P(x\leq X <x+h|X>x)=\lambda
	\end{equation}
	类似的还有原子核放射性衰变的过程。
	\begin{definition}[{伽马分布}]		
			伽马分布，$X\sim \Gamma(\alpha,\beta),\ \alpha,\beta >0$。定义伽马函数$\Gamma(\alpha)$如下：
			\begin{equation}
			\Gamma(\alpha)=\int_{0}^{+\infty}t^{\alpha-1}e^{-t}dt
			\end{equation}
			从而有$X$的概率密度
			\begin{equation}
			f(x)=\frac{\beta^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\beta x},\quad x>0
			\end{equation}
	\end{definition}
			显然，当$\alpha=1$时，伽马分布与指数分布是一致的。事实上，服从伽马分布的随机变量可以看成$\alpha$个服从指数分布$\varepsilon(\beta)$的独立随机变量之和。
	\begin{definition}[{正态分布}]		
			正态分布，$X\sim N(\mu,\sigma^2),\ \sigma>0$。
			\begin{equation}
			f(x)=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}},\quad x\in\mathbb{R}
			\end{equation}
			特别地，$N(0,1)$称为标准正态分布，其概率密度记为
			\begin{equation}
			\varphi(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}, x\in\mathbb{R}
			\end{equation}
	\end{definition}
			对于$X\sim N(\mu,\sigma^2)$，可以用下列公式计算概率：
			\begin{equation}
			P(a\leq X<b)=\Phi\left(\frac{b-\mu}{\sigma}\right)-\Phi\left(\frac{a-\mu}{\sigma}\right)
			\end{equation}
			其中，\begin{equation}\Phi(a):=\int_{-\infty}^{a}\varphi(x)dx\end{equation}
			这样，只要手上有标准正态分布的表，就可以计算任何服从正态分布的随机变量在某个区间内的概率了。
	
	\section{随机向量分布函数}
	\begin{definition}[{$n$维随机向量与联合分布函数}]
		在概率空间$(\Omega,\mathfrak{F},P)$上，$X_1,X_2,\cdots,X_n$是随机变量。称
		\begin{equation}\vec{X}=(X_1,X_2,\cdots,X_n)\end{equation}是$n$维随机向量，$F(x_1,x_2,\cdots,x_n)=P(X_1\leq x_1, X_2\leq x_2,\cdots,X_n\leq x_n)$则称为该随机向量的联合分布函数。
	\end{definition}
	联合分布函数具有如下性质：
	\begin{property}
		\begin{enumerate}
			\item \begin{equation}0\leq F(\vec{x})\leq 1\end{equation}
			\item $F(\vec{x})$关于各个$x_i$分别是单调递增向右的连续函数。
			\item 如果有一个变量趋于负无穷，那么该处的$F$就趋于0。
			\item 如果所有变量都趋于正无穷，那么该处的$F$就趋于1。
		\end{enumerate}
	\end{property}
	\begin{definition}[{边缘分布}]
		在概率空间$(\Omega,\mathfrak{F},P)$上，$X_1,X_2,\cdots,X_n$是随机变量，$1\leq k\leq n-1$，$F$是联合分布。那么，$(X_1,X_2,\cdots,X_k)$的分布函数是
		\begin{equation}
		\lim\limits_{x_{k+1},\cdots,x_n\to +\infty}F(x_1,\cdots,x_k,x_{k+1}.\cdots,x_n)
		\end{equation}	
		称其为$\vec{X}$关于$(X_1,X_2,\cdots,X_k)$的边缘分布。
	\end{definition}
	实际上，边缘分布的意思就是让那些不考虑的变量取值范围趋于正无穷，从而使得它们失去作用。比如说，
	\begin{equation}
	\lim\limits_{y\to+\infty}P(X\leq x, Y\leq y)=P\left(X\leq x,\bigcup_{y=1}^{+\infty}{Y\leq y}\right)=P(X\leq x)
	\end{equation}
	
	有了边缘分布，就可以讨论随机向量各个分量的独立性的定理。
	\begin{theorem}[{随机向量分量的独立性}]
		随机变量$X_1,\cdots,X_n$互相独立的充要条件是，它们的联合分布等于关于每个变量边缘分布的乘积，也就是
		\begin{equation}
		F(x_1,\cdots,x_n)=F_{1}(x_1)F_2(x_2)\cdots F_n(x_n)
		\end{equation}
	\end{theorem}

	
	\begin{definition}[{离散型随机向量}]
		当$X_1,\cdots,X_n$是离散型随机变量时，$\vec{X}$称为离散型随机向量。
	\end{definition}
	离散型随机变量有一种特殊的分布，是二项分布的推广：
	\begin{definition}[{多项分布}]
		设$A_1,A_2,\cdots,A_r$是完备事件组。独立重复试验$n$次，$X_i$表示事件$A_i$的发生次数。$P(A_i)=p_i,\ i=1,2,\cdots,r$。则
		\begin{equation}
		P(X_1=k_1,X_2=k_2,\cdots,X_r=k_r)=\begin{pmatrix}
		n\\k_1\ k_2\ \cdots k_r
		\end{pmatrix}p_1^{k_1}p_2^{k_2}\cdots p_r^{k_r}
		\end{equation}
		其中，$k_i\geq 0,\ k_1+k_2+\cdots+k_n=n$
	\end{definition}
	
	\begin{theorem}[{离散型随机变量独立性条件}]
		设$X,Y$是离散型随机变量，则$X,Y$独立的充要条件是
		\begin{equation}
		\forall\ i,j,\ P(X=x_i,Y=y_j)=P(X=x_i)P(Y=y_j)
		\end{equation}
	\end{theorem}
	
	\section{连续型随机向量}
	\begin{definition}[{连续型随机向量与联合密度}]
		设$\vec{X}=(X_1,\cdots,X_n)$是连续型随机向量，$f$为$\mathbb{R}^n$上的非负可积函数。若$\forall D=\lbrace (x_1,\cdots,x_n)|a_i<x_i\leq b_i, a_i,b_i\in\mathbb{R}\rbrace$，都有
		\begin{equation}
		P(\vec{X}\in D)=\int_D f(x_1,\cdots,x_n)dx_1\cdots dx_n
		\end{equation}
		成立，则随机向量为连续型随机向量，$f(x_1,\cdots,x_n)$是联合密度。
	\end{definition}

	\begin{property}
		联合密度具有如下性质：
		\begin{enumerate}
			\item \begin{equation}\int_{\mathbb{R}^n}f(x_1,\cdots,x_n)dx_1\cdots dx_n=1\end{equation}
			\item 联合密度不唯一。修改任何一个零测集上联合密度的值都不会改变$n$重积分的值。
			\item 若$f,g$均为$\vec{X}$的联合密度，且均在$\vec{x}$处连续，则$f(\vec{x})=g(\vec{x})$
		\end{enumerate}
	\end{property}
	
	\begin{definition}[{边缘密度}]
		定义
		\begin{equation}
		g(x_1,\cdots,x_k)=\int_{\mathbb{R}^{n-k}}f(x_1,\cdots,x_k,x_{k+1},\cdots,x_n)dx_{k+1}\cdots dx_n
		\end{equation}
		为关于$(X_1,\cdots,X_k)$的边缘密度。
	\end{definition}
	
	边缘密度定义成立是由Fubini定理保证的：
	\begin{theorem}[{Fubini}]
		若$f(x_1,x_2,\cdots,x_n)$为非负函数或者在$D\subset \mathbb{R}^n$上是绝对可积函数，则$f$在$D$上的$n$重积分可以任意交换$n$次积分的顺序。
	\end{theorem}

	为了简化讨论，在二维情形下，有
	\begin{theorem}[{连续型随机向量成立条件}]
		随机向量$(X,Y)$有连续的分布函数$F(x,y)$，其概率密度函数是
		\begin{equation}
		f(x,y)=\begin{cases}
		\frac{\partial^2 F}{\partial x\partial y},\quad &\text{if}\ \frac{\partial^2 F}{\partial x\partial y} \text{exists}\\
		0,\quad &\text{else}
		\end{cases}
		\end{equation}
		如果
		\begin{equation}
		\int_{\mathbb{R}^2}f(x,y)dxdy=1
		\end{equation}
		则随机向量$(X,Y)$是连续型随机向量，且$f$是联合密度。
	\end{theorem}

	例题：考虑$X\sim U(0,1),\ X=Y$，考虑$(X,Y)$的概率分布。
	解：联合分布为
	\begin{equation}F(x,y)=P(X\leq x, Y\leq y)=P(X\leq x, X\leq y)=P(X\leq\min\{x,y\})\end{equation}
	从而
	\begin{equation}
	F(x,y)=\begin{cases}
	0,\quad &\min\{x,y\}\leq 0\\
	\min\{x,y\},\quad & 0<\min\{x,y\}\leq 1\\
	1,\quad &\min\{x,y\}>1
	\end{cases}
	\end{equation}
	如果联合密度存在，那么联合密度恒为$0$。这与
	\begin{equation}
	\int_{\mathbb{R}^2}f(x,y)dxdy=1 
	\end{equation}
	矛盾。所以联合密度不存在，$(X,Y)$不是连续型随机向量。事实上，如果一定要定义一个概率密度，那么其在除了一个零测集上都是零，而在该零测集上需要是一个$\delta$函数。

	\begin{theorem}[{连续型随机变量独立性条件}]
		假设$X$有边缘密度$f_X(x)$，$Y$有边缘密度$f_Y(y)$，则$X,Y$独立的充分必要条件是$f_X(x)f_Y(y)$为$(X,Y)$的联合密度。
	\end{theorem}

	常用的连续型随机向量的概率分布有：

		\begin{definition}[{均匀分布}]
			设$D\subset\mathbb{R}^2,\ m(D)\in\mathbb{R}$是其面积。若$(X,Y)$具有联合密度
			\begin{equation}
			f(x,y)=\begin{cases}
			\frac{1}{m(D)}\quad &(X,Y)\in D\\
			0\quad &\text{else}
			\end{cases}
			\end{equation}
			则称$(X,Y)$服从$D$上的均匀分布。
		\end{definition}
	
		\begin{definition}[{正态分布}]
			若$(X,Y)$具有联合密度
			\begin{equation}
			f(x,y)=\frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}}e^{-\frac{1}{2(1-\rho^2)}\left(\frac{(x-\mu_1)^2}{\sigma_1^2}-\frac{2\rho(x-\mu_1)(y-\mu_2)}{\sigma_1\sigma_2}+\frac{(y-\mu_2)^2}{\sigma_2^2}\right) }
			\end{equation}
			其中$\sigma_1,\sigma_2>0,\ -1<\rho<1$，则此时称随机向量服从二维正态分布，记作$(X,Y)\sim N(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2,\rho)$
		\end{definition}
		\begin{theorem}[{正态分布的边缘密度}]
			若$(X,Y)\sim N(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2,\rho)$，则有边缘密度
			\begin{equation}
			f_X(x)=\frac{1}{\sqrt{2\pi}\sigma_1}\exp\left[-\frac{(x-\mu_1)^2}{2\sigma_1^2}\right]
			\end{equation}
			是与$\rho$无关的，也就是说$X\sim N(\mu_1,\sigma_1^2)$。类似地，也有$Y\sim N(\mu_2,\sigma_2^2)$。$\rho$是相关系数，在边缘分布中不起作用。事实上$\rho=0$等价于$X,Y$独立。
		\end{theorem}

	练习：如果$(X,Y)$在单位圆内部$D$上均匀分布，求其关于$X,Y$分别的边缘密度。
	根据边缘密度的定义，有
	\begin{equation}
	\begin{aligned}
	f_X(x)=&\int_{-\infty}^{+\infty}f(x,y)dy\\
	=&\int_{-\infty}^{-\sqrt{1-x^2}}f(x,y)dy + \int_{-\sqrt{1-x^2}}^{\sqrt{1-x^2}}f(x,y)dy + \int_{\sqrt{1-x^2}}^{+\infty}f(x,y)dy\\
	=&\frac{2}{\pi}\sqrt{1-x^2}
	\end{aligned}
	\end{equation}
	同理，
	\begin{equation}
	f_Y(y)=\frac{2}{\pi}\sqrt{1-y^2}
	\end{equation}
	由于
	\begin{equation}
	f_X(x)f_Y(y)=\frac{4}{\pi^2}\sqrt{(1-x^2)(1-y^2)}\neq f(x,y)
	\end{equation}
	所以$X,Y$不是独立的。
	
	\section{随机向量的函数的分布}
	考虑二维随机向量$(X,Y)$的一维函数$Z=g(X,Y)$。如何求随机变量$Z$的分布？
	
	\begin{theorem}{}
		设$(X,Y)$是离散型随机变量，有联合分布$P(X=x_i,Y=y_j)=p_{ij}$。若$Z=g(X,Y)$，则$Z$的分布列为
		\begin{equation}
		P(Z=z_k)=\sum_{g(x_i,y_j)=z_k}p_{ij}
		\end{equation}
	\end{theorem}
	实际上就是把所有具有相同的$Z$的那些样本点合并到了一起。
	
	\begin{theorem}{}
		设$(X,Y)$是连续型随机变量，有联合密度$f(x,y)$，则$Z=g(X,Y)$的概率分布为
		\begin{equation}
		P(g(X,Y)\leq z)=\int_{g(x,y)\leq z}f(x,y)dxdy
		\end{equation}
		特别地，如果$Z=X+Y$，则有
		\begin{equation}
		f_Z(z)=\int_{-\infty}^{+\infty}f(x,z-x)dx
		\end{equation}
	\end{theorem}
	\begin{proof}
		考虑分布函数
		\begin{equation}
		F_Z(z)=P(Z\leq z)=P(g(X,Y)\leq z)
		\end{equation}
		则有
		\begin{equation}
		P(g(X,Y)\leq z)=\int_{g(x,y)\leq z}f(x,y)dxdy
		\end{equation}
		这个积分是二重积分，积分区域是曲线$g(x,y)\leq z$下方的区域。当$Z=X+Y$时，有
		\begin{equation}
		P(X+Y\leq z)=\int_{-\infty}^{\infty}dx\int_{-\infty}^{z-x}f(x,y)dy
		\end{equation}
		进行换元$u=x+y$，可得
		\begin{equation}
		F_Z(z)=\int_{-\infty}^{z-x}f(x,y)dy=\int_{-\infty}^zf(x,u-x)du
		\end{equation}
		由Fubini定理，积分换序可得
		\begin{equation}
		F_Z(z)=\int_{-\infty}^zdu\int_{-\infty}^{+\infty}f(x,u-x)dx
		\end{equation}
		显然分布函数连续，$Z$是连续型随机变量。有
		\begin{equation}
		f_Z(z)=F'_Z(z)=\int_{-\infty}^{+\infty}f(x,z-x)dx
		\end{equation}
		\qed
	\end{proof}
	
	事实上，随机向量的每个分量的和的密度称为卷积。进一步地，如果加上$X,Y$独立的条件，那么就有
	\begin{equation}
	f(x,y)=f(x,z-x)=f_X(x)f_Y(z-x)
	\end{equation}
	此时
	\begin{equation}
	f_Z(z)=\int_{-\infty}^{+\infty}f_X(x)f_Y(z-x)dx=f_X(x)*f_Y(x)
	\end{equation}
	其中$*$是卷积符号。
	
	\begin{theorem}[随机变量商的密度]\label{随机变量商的密度}
	设连续型随机向量$X,Y$的联合密度为$f(x,y)$，则$Z=X/Y$的密度为
	\begin{equation}
	f_Z(z)=\int_{\mathbb{R}}|y|f(yz,y)dy
	\end{equation}
	\end{theorem}

	\begin{proof}
	同样采用分布函数法，$Z$的分布函数为
	\begin{equation}
	F_Z(z)=P\left(\frac{Y}{X}\leq z\right)=\int_{0}^{+\infty}\int_{-\infty}^{yz}f(x,y)dxdy+\int_{-\infty}^{0}\int_{-\infty}^{yz}f(x,y)dxdy
	\end{equation}
	在第一项积分中，保持$y>0$不变，对$x$换元$x=uy$得
	\begin{equation}
	\int_{-\infty}^{yz}f(x,y)dx=\int_{-\infty}^{z}yf(yu,y)dudy
	\end{equation}
	在第二项积分中同理，最终可得
	\begin{equation}
	F_Z(z)=\int_{-\infty}^{+\infty}\int_{-\infty}^{z}|y|f(yu,y)dudy=\int_{-\infty}^{z}\int_{-\infty}^{+\infty}|y|f(yu,y)dydu
	\end{equation}
	从而概率密度为
	\begin{equation}
	f_Z(z)=\frac{dF_Z}{dz}=\int_{-\infty}^{+\infty}|y|f(yu,y)dy
	\end{equation}\qed
	\end{proof}
	
	
	例题。对于$X,Y\sim N(0,1)$，且$X,Y$独立，求$Z=\sqrt{X^2+Y^2}$的概率分布。
	
	由概率分布的定义
	\begin{equation}
	F_Z(z)=P(Z\leq z)=P(\sqrt{X^2+Y^2}\leq z)
	\end{equation}
	可知，当$z\leq0$，则$F_Z(z)=0$。而当$z>0$时，则
	\begin{equation}
	F_Z(z)=\int_{\sqrt{x^2+y^2}<z}f(x,y)
	\end{equation}
	由于$X,Y$独立，则有
	\begin{equation}
	F_Z(z)=\int_{\sqrt{x^2+y^2}<z}f_X(x)f_Y(y)dxdy=\int_{x^2+y^2<z^2}\frac{1}{2\pi}e^{-\frac{x^2+y^2}{2}}dxdy
	\end{equation}
	令$x=r\cos\theta,\ y=r\sin\theta$，有
	\begin{equation}
	F_Z(z)=\frac{1}{2\pi}\int_{0}^{2\pi}d\theta \int_{-\infty}^{z}e^{-\frac{r^2}{2}}rdr=\int_{-\infty}^{z}re^{-\frac{r^2}{2}}dr
	\end{equation}
	从而
	\begin{equation}
	f_Z(z)=F_Z'(z)=ze^{-\frac{z^2}{2}}
	\end{equation}
	事实上，$f_Z(z)$的这种分布称为Rayleigh分布。其描述的是两个独立的标准正太随机变量组成的随机向量的脱靶量的分布。
	
	\section{条件分布}
	条件分布事实上是对于条件概率在概率分布中的推广。对于一个二维向量$(X,Y)$，已知常数$y$，如何求得给定条件$Y=y$下$X$的概率分布？
	\begin{theorem}[{离散型随机变量的条件概率}]
		假设离散型随机向量$(X,Y)$具有分布列$P(X=x_i,Y=y_i)=p_{ij}$，则条件向量
		\begin{equation}
		P(X=x_i|Y=y_i)=\frac{P(X=x_i,Y=y_i)}{P(Y=y_i)}=\frac{p_{ij}}{\sum_i p_{ij}}
		\end{equation}
		称其维已知$Y=y_i$条件下，$X$的条件概率分布。
	\end{theorem}
	\begin{proof}
		$P(X=x_i,Y=y_i)$事实上就是$p_{ij}$，而$P(Y=y_i)$事实上就是边缘分布，因此
		\begin{equation}
		P(Y=y_i)=\sum_{i}p_{ij}
		\end{equation}
		\qed
	\end{proof}
	
	\begin{theorem}[连续型随机变量的条件概率]
		假设连续型随机向量$(X,Y)$具有联合密度$f(x,y)$，则条件概率分布函数是
		\begin{equation}
		F_{X|Y}(x|y)=P(X\leq x|Y=y)=\int_{-\infty}^{x}\frac{f(u,y)}{f_Y(y)}du
		\end{equation}
		从而条件概率分布密度是
		\begin{equation}
		f_{X|Y}(x|y)=\frac{f(x,y)}{f_Y(y)}
		\end{equation}
	\end{theorem}
	\begin{proof}
		利用分布函数的连续性，有
		\begin{equation}
		F_{X|Y}(x|y)=\lim\limits_{\epsilon\to0}P(X\leq x|\ y-\epsilon<Y\leq y+\epsilon)
		\end{equation}
		由条件概率的定义，有
		\begin{equation}
		P(X\leq x|\ y-\epsilon<Y\leq y+\epsilon)= \frac{P(X\leq x,\ y-\epsilon<Y\leq y+\epsilon)}{P(y-\epsilon<Y\leq y+\epsilon)}
		\end{equation}
		其中，分母就是边缘分布
		\begin{equation}
		P(y-\epsilon<Y\leq y+\epsilon)=\int_{y-\epsilon}^{y+\epsilon}f_Y(v)dv=F_Y(y+\epsilon)-F_Y(y-\epsilon)
		\end{equation}
		而分子是联合分布
		\begin{equation}
		\begin{aligned}
		P(X\leq x,&\ y-\epsilon<Y\leq y+\epsilon)=\int_{-\infty}^{x}du\int_{y-\epsilon}^{y+\epsilon} f(u,v) dv\\
		&=\int_{y-\epsilon}^{y+\epsilon}dv\int_{-\infty}^{x}f(u,v)du=F(x,y+\epsilon)-F(x,y-\epsilon)
		\end{aligned}
		\end{equation}
		所以
		\begin{equation}
		\begin{aligned}
		F_{X|Y}(x|y)&=\lim\limits_{\epsilon\to 0}\frac{F(x,y+\epsilon)-F(x,y-\epsilon)}{F_Y(y+\epsilon)-F_Y(y-\epsilon)}\\
		&=\lim\limits_{\epsilon\to 0}\frac{2\epsilon}{2\epsilon}\cdot\frac{{F(x,y+\epsilon)-F(x,y-\epsilon)}}{{F_Y(y+\epsilon)-F_Y(y-\epsilon)}} \\
		&=\frac{\frac{\partial F}{\partial y}(x,y)}{F'_Y(y)}=\frac{\int_{-\infty}^{x}f(u,y)du}{f_Y(y)}=\int_{-\infty}^{x}\frac{f(u,y)}{f_Y(y)}du
		\end{aligned}
		\end{equation}
		所以
		\begin{equation}
		f_{X|Y}(x|y)=\frac{f(x,y)}{f_Y(y)}
		\end{equation}
		\qed
	\end{proof}

	条件概率本身可以抽象为随机变量。现有事件$A$，给定条件为$Y=y$。那么显然$P(A|Y=y)$为条件概率，而另一方面也是$y$的函数：
	\begin{equation}
	g(y)=P(A|Y=y)
	\end{equation}
	将$g$作用在随机变量$Y$上，有
	\begin{equation}
	g(Y)=P(A|Y)
	\end{equation}
	这个表达式不再是一个条件概率，而是一个随机变量。称$g(Y)$为$A$关于$Y$的条件概率，得到的是一个随机变量。
